クラスメソッドデータアナリティクス通信(AWSデータ分析編) – 2024年8月号

クラスメソッドの石川です。日々AWSのアナリティクス関連サービスのアップデートとそのブログをご紹介します。今月は、AWS Glue Studio の Visual ETL が、GlueBrewのUIで直接データ変換できる様になりました。Amazon QuickSightはコントロールのパフォーマンスの改善、SPICEデータセットの結合のテーブルサイズ制限を20GBに引き上げされました。Amazon DataZone と AWS Clean Roomsはのアップデートが著しいです。他にもアップデートがあるので紹介します！

クラスメソッドデータアナリティクス通信クラスメソッドデータアナリティクス通信(AWSデータ分析編)

石川覚

2024.08.05

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

 Amazon Redshift APIの変更点 2024/07/22 - Redshift Serverless - 10 updated api methodshttps://awsapichanges.com/archive/changes/c4fe97-redshift-serverless.html
Redshift Serverless ワークグループにデュアルスタックサポートを追加します。（what’s newでは、まだ観測していません。）
 Amazon Glue 新機能・アップデート 2024/07/09 - AWS Glue Studio が、ノーコードのデータ準備オーサリングエクスペリエンスの提供を開始https://aws.amazon.com/jp/about-aws/whats-new/2024/07/aws-glue-studio-no-code-data-preparation-authoring-experience/
AWS Glue Studio のVisual ETL は、AWS Glue for Spark でデータ統合ジョブを大規模に実行するスプレッドシートスタイルの UI を備えた、ノーコードデータプリパレーション機能の「data preparation authoring」の一般提供を発表しました。
Visual ETLのオーサリング画面で「Data Preparation」レシピを追加するとGlueBrewの「レシピ」を新しいAWS Glue DataBrewUIにインポートし、引き続きAWS Glue Studioでそれらをオーサリングできます。この機能では、あらかじめ用意されている何百種類もの変換の中から選択して、データ準備タスクを自動化でき、コードを記述する必要はありません。
https://aws.amazon.com/blogs/aws/integrate-your-data-and-collaborate-using-data-preparation-in-aws-glue-studio/
https://aws.amazon.com/blogs/big-data/author-data-integration-jobs-with-an-interactive-data-preparation-experience-with-aws-glue-visual-etl/
 2024/07/09 - AWS Glue データカタログが Apache Iceberg テーブルの統計情報の生成を新たにサポートhttps://aws.amazon.com/jp/about-aws/whats-new/2024/07/aws-glue-data-catalog-generating-statistics-apache-iceberg-tables/
AWS Glue Data Catalogは、Apache Icebergテーブルのカラムレベルの集計統計情報を生成する機能をサポートするようになりました。この統計情報は、Amazon Redshift Spectrumのコストベースオプティマイザ（CBO）と統合されており、クエリパフォーマンスの向上とコスト削減の可能性があります。
Apache Icebergは、null値、最小値、最大値などの統計情報をサポートしていますが、これまでは個別値の数（NDV）などの集計統計情報を生成する機能がありませんでした。今回のアップデートにより、Apache Icebergテーブルのカラムに対してNDVが収集され、Apache Iceberg Puffinファイルに保存されるようになりました。Amazon Redshift Spectrumはこれらの集計統計情報を使用して、クエリを最適化します。具体的には、クエリ処理の早い段階で最も制限したフィルタを適用することで、メモリ使用量を抑え、読み込むレコード数を減らします。これにより、クエリの結果を提供するための効率が向上します。
https://aws.amazon.com/jp/blogs/big-data/accelerate-query-performance-with-apache-iceberg-statistics-on-the-aws-glue-data-catalog/
 APIの変更点 2024/07/10 - AWS Glue - 5 updated api methodshttps://awsapichanges.com/archive/changes/e4e0c1-glue.html
レシピノードにレシピステップのサポートを追加しました。
 Amazon QuickSight 新機能・アップデート 2024/07/10 - Amazon QuickSight が SPICE JOIN の制限を 20 倍に引き上げhttps://aws.amazon.com/jp/about-aws/whats-new/2024/07/amazon-quicksight-20x-higher-limit-spice-join/?nc1=h_ls
Amazon QuickSightは、SPICEデータセットを結合する際のテーブルサイズ制限を1GBから20GBに引き上げました。このアップデートにより、QuickSightユーザーは、より大規模なデータセットを扱うことが可能となり、データ準備の効率が大幅に向上します。
https://dev.classmethod.jp/articles/amazon-quicksight-spice-20-gb/
 2024/07/15 - Amazon QuickSight がコントロールのパフォーマンスを改善https://aws.amazon.com/jp/about-aws/whats-new/2024/07/amazon-quicksight-controls-performance/?nc1=h_ls
Amazon QuickSightのダッシュボードでユーザーがコントロール（フィルターやパラメータなど）を操作する際、各変更ごとに関連するすべてのコントロールが再読み込みされるため、待ち時間が発生していました。しかし、この新機能により、コントロールの読み込みがバックグラウンドで行われるようになり、ユーザーはほとんどのコントロールに即座にアクセスできるようになります。
https://dev.classmethod.jp/articles/amazon-quicksight-control-lazy-load/
 APIの変更点 2024/07/12 - Amazon QuickSight - 3 new 9 updated api methodshttps://awsapichanges.com/archive/changes/768912-quicksight.html
Vegaと呼ばれるデータ可視化ライブラリのコントロールオプションとトピックスのレビュー回答をサポートしました。
 Amazon DataZone 新機能・アップデート 2024/07/03 - Amazon DataZone できめ細かなアクセス制御が導入https://aws.amazon.com/jp/about-aws/whats-new/2024/07/amazon-datazone-fine-grained-access-control/
データ所有者がより細かなレベルでデータを制御できる「fine-grained access control」機能を導入しました。この新機能により、行レベルおよび列レベルでのきめ細かいアクセス制御が可能になりました。
行フィルター
データセット全体ではなく、特定のデータレコードへのアクセスを制限できます。例えば、複数の地域のデータを含むテーブルがある場合、異なるプロジェクトに対して異なる地域の行へのアクセスを許可することができます。
列フィルター
特定の列へのアクセスを制限できます。これは個人を特定できる情報（PII）を含む列などに特に有用で、ユーザーが必要最小限のデータにのみアクセスできるようにします。
柔軟な制御
データ所有者は、Amazon DataZoneポータル内で行と列のフィルターを作成し、ユーザーがデータアセットへのアクセスを要求した際に適切なフィルターを適用して承認することができます。
セキュリティの強化
Amazon DataZoneはAWS Lake FormationとAmazon Redshiftを使用してこれらのフィルターを適用し、承認された行と列のみにユーザーがアクセスできるようにします。
この新機能により、Amazon DataZoneユーザーは組織の境界を越えて、より安全かつ効果的にデータのカタログ化、発見、分析、共有、およびガバナンスを行うことができるようになりました。データのセキュリティと柔軟性が向上し、必要な情報のみを適切なユーザーと共有することが可能になります。
https://aws.amazon.com/jp/blogs/big-data/enhance-data-security-with-fine-grained-access-controls-in-amazon-datazone/
 APIの変更点 2024/07/22 - Amazon DataZone - 5 new 3 updated api methodshttps://awsapichanges.com/archive/changes/c4fe97-datazone.html
DefaultDataLake ブループリントの AWS Lake Formation ハイブリッドアクセスモードでアセットの S3 ロケーションを登録できるようになりました。また、アセットフィルターのCRUD操作のサポートしました。
 2024/07/25 - Amazon DataZone - 5 new 3 updated api methodshttps://awsapichanges.com/archive/changes/37945f-datazone.html
SDKにGetEnvironmentCredentialsオペレーションを導入。
 AWS Clean Rooms 新機能・アップデート 2024/07/25 - AWS Clean Rooms launches new capabilities for entity resolution, ML modeling, privacy, and analysis controlshttps://aws.amazon.com/jp/about-aws/whats-new/2024/07/aws-clean-rooms-capabilities-entity-resolution-ml-modeling-privacy-analysis-controls/
AWS Clean Roomsは以下の4つの新機能を発表しました。
AWS Entity Resolutionの一般提供
AWS Entity ResolutionがAWS Clean Roomsにネイティブに統合され、異なるデータソース間でのエンティティのマッチングが容易になります。ルールベースまたはデータサービスプロバイダーを使用したマッチングにより、広告キャンペーンの計画、ターゲティング、および測定を強化できます。
プライバシー制御の強化
新しいプライバシー制御により、コラボレーション内でのデータ分析の柔軟性が向上しました。特定の出力カラムをカスタムSQLデータ分析から除外することができ、データ保護が強化されます。また、どのコラボレーターが分析結果を受け取るかを簡単に選択することが可能です。
コラボレーターへの分析結果の配信設定
新しい機能により、どのコラボレーターが分析結果を受け取るかを設定できるようになり、データの共有範囲を細かく制御し、必要なパートナーだけが結果を受け取ることができます。
類似モデル用シードデータ生成のためのSQLクエリ
AWS Clean Rooms MLを使用して、SQLクエリをシードデータソースとして利用し、類似モデルを生成することができます。マーケティングキャンペーンやその他のビジネスユースケースにおいて、ターゲットオーディエンスの類似セグメントを効果的に特定することが可能です。
https://aws.amazon.com/jp/blogs/industries/unlock-data-insights-across-multi-party-datasets-using-aws-entity-resolution-on-aws-clean-rooms-without-sharing-underlying-data/
 APIの変更点 2024/07/23 - AWS Clean Rooms Service - 13 new 5 updated api methodshttps://awsapichanges.com/archive/changes/8539c1-cleanrooms.html
このリリースでは、AWS Clean RoomsのIDネームスペースの関連付けとIDマッピングテーブルの一部として、IDネームスペースとIDマッピングワークフローリソースを関連付けるためのAWS Entity Resolution統合が追加されます。また、ID マッピングテーブルの保護を管理するための新しい ID_MAPPING_TABLE 分析ルールが導入されます。
 2024/07/24 - AWS Clean Rooms Service - 4 new 14 updated api methodshttps://awsapichanges.com/archive/changes/e71281-cleanrooms.html
AWSクリーンルームの3つの機能強化： 禁止された出力カラム、柔軟な結果レシーバー、シードとしてのSQL。
 AWS Clean Rooms ML APIの変更点 2024/07/23 - AWS Clean Rooms ML - 2 updated api methodshttps://awsapichanges.com/archive/changes/8539c1-cleanrooms-ml.html
オーディエンス生成ジョブのシードオーディエンスのソースとしてSQLクエリを追加します。
 Amazon OpenSearch Service 新機能・アップデート 2024/07/01 - Amazon OpenSearch Ingestion adds support for ingesting data from self-managed sourceshttps://aws.amazon.com/jp/about-aws/whats-new/2024/07/amazon-opensearch-ingesting-data-self-managed-sources/
自己管理のOpenSearch、Elasticsearch、Apache Kafkaクラスターからデータを取り込み、Amazon OpenSearch Serviceに移行することが可能になりました。これにより、Logstashなどのサードパーティツールを使用せずにデータを移行できるようになります。
下記のブログでは、OpenSearch Ingestionを使ってサーバレスにALBのログをOpenSearch Serviceに連携を試しています。
https://dev.classmethod.jp/articles/amazon-opensearch-ingestion-announce/
 2024/07/09 - Amazon OpenSearch Service がログ分析のための自然言語クエリ生成を発表https://aws.amazon.com/jp/about-aws/whats-new/2024/07/amazon-opensearch-service-natural-language-query-generation/
Amazon OpenSearch Serviceは、OpenSearch DashboardsのLog Explorerにおいて、AIを活用した自然言語クエリ生成のサポートを追加しました。この機能により、ユーザーは平易な英語でログ探索の質問を行うことができ、その質問は自動的に関連するPiped Processing Language (PPL)のクエリに変換され、要求されたデータを取得するために実行されます。
 APIの変更点 2024/07/09 - Amazon OpenSearch Service - 7 updated api methodshttps://awsapichanges.com/archive/changes/b4e67d-es.html
Amazon OpenSearch Service ドメインの自然言語クエリ処理機能を有効化または無効化するためのサポートが追加と、セットアップまたはティアダウンの現在の状態を可視化できるようになりました。
 Amazon OpenSearch Serverless 新機能・アップデート 2024/07/09 - Amazon OpenSearch Serverless が時系列ワークロードのサポートを最大 30 TB まで拡大https://aws.amazon.com/about-aws/whats-new/2024/07/amazon-opensearch-serverless-time-series-workloads-30tb/
時系列コレクションで最大 30 TB のデータのワークロードをサポートするようになりました。
時系列ワークロードのサポート拡大
Amazon OpenSearch Serverlessは、時系列データコレクションのサポートを30TBまで拡大しました。これにより、ログ分析、セキュリティ分析、リアルタイムアプリケーションモニタリングなど、データ集約型のユースケースに対応できるようになりました。
OpenSearch Compute Units (OCUs)
OpenSearch Serverlessのコンピューティングキャパシティは、OpenSearch Compute Units (OCUs)で測定されます。新しいリリースでは、インデックス作成と検索操作を最大500 OCUまで独立してスケール可能になりました。これにより、ユーザーはコスト管理をしやすくなり、リソースの効率的な利用が可能です。
データハイドレーションメカニズム
新しいデータハイドレーションメカニズムが導入され、スケーリングの改善とクエリ遅延の低減が実現されました。このメカニズムにより、頻繁にアクセスされるデータがホットストレージに保存され、クエリ応答時間が最適化されます。
リアルタイムのOCU使用量モニタリング
CloudWatchメトリクスを使用して、リアルタイムでOCUの使用状況を監視できます。これにより、ワークロードのリソース消費をより良く把握し、必要に応じてキャパシティ設定を調整することが可能です。
 2024/07/15 - Amazon OpenSearch Serverless はスマートキャッシュによりスピードと効率を向上https://aws.amazon.com/jp/about-aws/whats-new/2024/07/amazon-opensearch-serverless-speed-efficiency-smart-caching/
Amazon OpenSearch Serverlessに新たに導入されたスマートキャッシング機能は、データの自動取得とインテリジェントな管理を実現し、データ取得の高速化、ストレージ使用の効率化、そしてコスト削減を可能にします。このキャッシングメカニズムは、特に大規模なデータを扱う企業にとって、大きなメリットをもたらします。
 Amazon MWAA 新機能・アップデート 2024/07/09 - Amazon MWAA が Apache Airflow バージョン 2.9 のサポートを開始https://aws.amazon.com/jp/about-aws/whats-new/2024/07/amazon-mwaa-apache-airflow-version-2-9/
Apache Airflow バージョン 2.9 環境を作成できるようになりました。Apache Airflow 2.9 は、ワークフローのオーサリング、スケジュール、および監視を支援する人気のオープンソースツールの最新のマイナーバージョンです。
https://aws.amazon.com/blogs/big-data/introducing-amazon-mwaa-support-for-apache-airflow-version-2-9-2/
 最後に今月号では、AWS Glue Studio の Visual ETL が、GlueBrewのUIで直接データ変換できる様になり、GlueBrewユーザーは、これまで以上の大きなデータに対して変換できようになります。
データ利活用をするのに欠かせない、Amazon DataZone と AWS Clean Rooms のアップデートが著しく、 この2つのサービスの違いが明確になってきたと感じます。Amazon DataZoneはガバナンスを効かせながらデータのカタログ化、発見、共有、管理を容易にするデータ管理サービスを提供します。一方、AWS Clean Roomsは異なる組織間でデータを共有せずに、安全に集合データセットを分析・コラボレーションしてデータ利活用するためのサービスです。
話は変わりますが、弊社日比谷オフィスで開催された Classmethod Odyssey にて 「生成AI x データ分析基盤」 をテーマに 「データ分析を支える技術 生成AI再入門」 というタイトルで登壇しました。
生成AIは膨大なデータから学習し、新しいコンテンツを生成する能力を持っています。一方、データ分析は既存のデータから意味のあるインサイトを導き出します。この2つの技術を組み合わせることで、データ分析の精度と範囲の向上、分析プロセスの効率化、新たな洞察の創出の提供など、そのあり方が大きく変わりつつあります。ご覧いただけたら幸いです。
https://dev.classmethod.jp/articles/devio2024-primer-of-generative-ai-20240720/

Amazon Redshift

APIの変更点

2024/07/22 - Redshift Serverless - 10 updated api methods

Amazon Glue

新機能・アップデート

2024/07/09 - AWS Glue Studio が、ノーコードのデータ準備オーサリングエクスペリエンスの提供を開始

2024/07/09 - AWS Glue データカタログが Apache Iceberg テーブルの統計情報の生成を新たにサポート

APIの変更点

2024/07/10 - AWS Glue - 5 updated api methods

Amazon QuickSight

新機能・アップデート

2024/07/10 - Amazon QuickSight が SPICE JOIN の制限を 20 倍に引き上げ

2024/07/15 - Amazon QuickSight がコントロールのパフォーマンスを改善

APIの変更点

2024/07/12 - Amazon QuickSight - 3 new 9 updated api methods

Amazon DataZone

新機能・アップデート

2024/07/03 - Amazon DataZone できめ細かなアクセス制御が導入

APIの変更点

2024/07/22 - Amazon DataZone - 5 new 3 updated api methods

2024/07/25 - Amazon DataZone - 5 new 3 updated api methods

AWS Clean Rooms

新機能・アップデート

2024/07/25 - AWS Clean Rooms launches new capabilities for entity resolution, ML modeling, privacy, and analysis controls

APIの変更点

2024/07/23 - AWS Clean Rooms Service - 13 new 5 updated api methods

2024/07/24 - AWS Clean Rooms Service - 4 new 14 updated api methods

AWS Clean Rooms ML

APIの変更点

2024/07/23 - AWS Clean Rooms ML - 2 updated api methods

Amazon OpenSearch Service

新機能・アップデート

2024/07/01 - Amazon OpenSearch Ingestion adds support for ingesting data from self-managed sources

2024/07/09 - Amazon OpenSearch Service がログ分析のための自然言語クエリ生成を発表

APIの変更点

2024/07/09 - Amazon OpenSearch Service - 7 updated api methods

Amazon OpenSearch Serverless

新機能・アップデート

2024/07/09 - Amazon OpenSearch Serverless が時系列ワークロードのサポートを最大 30 TB まで拡大

2024/07/15 - Amazon OpenSearch Serverless はスマートキャッシュによりスピードと効率を向上

Amazon MWAA

新機能・アップデート

2024/07/09 - Amazon MWAA が Apache Airflow バージョン 2.9 のサポートを開始

最後に

関連記事

EVENTS